la démarche méthodologique d’analyse de données ¶

ACP¶¶

Jeu de données nettoyées
code url creator created_t created_datetime last_modified_t last_modified_datetime product_name generic_name quantity ... PP PPa PPb PN PNa PNb PNc PNd SCORE New_Nutri
0 0000000004530 http://world-fr.openfoodfacts.org/produit/0000... usda-ndb-import 1489069957 2017-03-09T14:32:37Z 1489069957 2017-03-09T14:32:37Z Banana Chips Sweetened (Whole) none none ... 7 5 2 19 6 3 10 0 12 none
1 0000000016087 http://world-fr.openfoodfacts.org/produit/0000... usda-ndb-import 1489055731 2017-03-09T10:35:31Z 1489055731 2017-03-09T10:35:31Z Organic Salted Nut Mix none none ... 10 5 5 12 7 0 5 0 2 none
2 0000000016100 http://world-fr.openfoodfacts.org/produit/0000... usda-ndb-import 1489055651 2017-03-09T10:34:11Z 1489055651 2017-03-09T10:34:11Z Breadshop Honey Gone Nuts Granola none none ... 10 5 5 8 5 2 1 0 -2 a
3 0000000016193 http://world-fr.openfoodfacts.org/produit/0000... usda-ndb-import 1489055651 2017-03-09T10:34:11Z 1489055651 2017-03-09T10:34:11Z Organic Dark Chocolate Minis none none ... 8 5 3 26 7 9 10 0 18 d
4 0000000016612 http://world-fr.openfoodfacts.org/produit/0000... usda-ndb-import 1489055731 2017-03-09T10:35:31Z 1489055731 2017-03-09T10:35:31Z Organic Adzuki Beans none none ... 10 5 5 4 4 0 0 0 -6 a
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
217940 9948282780603 http://world-fr.openfoodfacts.org/produit/9948... openfoodfacts-contributors 1490631299 2017-03-27T16:14:59Z 1491244498 2017-04-03T18:34:58Z Tomato & ricotta none 1 ... 0 0 0 0 0 0 0 0 0 b
217941 99567453 http://world-fr.openfoodfacts.org/produit/9956... usda-ndb-import 1489059076 2017-03-09T11:31:16Z 1491244499 2017-04-03T18:34:59Z Mint Melange Tea A Blend Of Peppermint, Lemon ... none none ... 0 0 0 0 0 0 0 0 0 none
217942 9970229501521 http://world-fr.openfoodfacts.org/produit/9970... tomato 1422099377 2015-01-24T11:36:17Z 1491244499 2017-04-03T18:34:59Z 乐吧泡菜味薯片 Leba pickle flavor potato chips 50 g ... 0 0 0 0 0 0 0 0 0 b
217943 9980282863788 http://world-fr.openfoodfacts.org/produit/9980... openfoodfacts-contributors 1492340089 2017-04-16T10:54:49Z 1492340089 2017-04-16T10:54:49Z Tomates aux Vermicelles none 67g ... 0 0 0 0 0 0 0 0 0 b
217944 999990026839 http://world-fr.openfoodfacts.org/produit/9999... usda-ndb-import 1489072709 2017-03-09T15:18:29Z 1491244499 2017-04-03T18:34:59Z Sugar Free Drink Mix, Peach Tea none none ... 0 0 0 6 6 0 0 0 6 c

217945 rows × 156 columns

Tableau data PCA
array([[2.243e+03, 2.857e+01, 2.857e+01, ..., 1.429e+01, 3.600e+00,
        3.570e+00],
       [2.540e+03, 5.714e+01, 5.360e+00, ..., 3.570e+00, 7.100e+00,
        1.786e+01],
       [1.933e+03, 1.827e+01, 1.920e+00, ..., 1.154e+01, 7.700e+00,
        1.346e+01],
       ...,
       [0.000e+00, 0.000e+00, 0.000e+00, ..., 0.000e+00, 0.000e+00,
        0.000e+00],
       [0.000e+00, 0.000e+00, 0.000e+00, ..., 0.000e+00, 0.000e+00,
        0.000e+00],
       [2.092e+03, 0.000e+00, 0.000e+00, ..., 0.000e+00, 0.000e+00,
        0.000e+00]])
--------------------
Sur F1:
   sugars_100g : -0.24
   saturated-fat_100g : -0.45
   energy_100g : -0.55
   fat_100g : -0.5
   cholesterol_100g : -0.05
   fiber_100g : -0.25
   proteins_100g : -0.3
Corrélation élevée entre les variables energy_100g, saturated-fat_100g, fat_100g sur F1 .
--------------------
Sur F2:
   sugars_100g : 0.75
   saturated-fat_100g : 0.12
   energy_100g : 0.13
   fat_100g : -0.1
   cholesterol_100g : -0.05
   fiber_100g : -0.28
   proteins_100g : -0.57
Corrélation élevée entre les variables fiber_100g , proteins_100g , cholesterol_100g sur F2.
On observe que cholesterol_100g est une variable peux représentative.
--------------------
Sur F3:
   sugars_100g : -0.20
   saturated-fat_100g : 0.25
   energy_100g : -0.05
   fat_100g : 0.15
   cholesterol_100g : 0.75
   fiber_100g : -0.52
   proteins_100g : -0.02
Corrélation élevée entre les variables energy_100g, fiber_100g sur F3 .
On observe que energy_100g , fiber_100g  sont des variables peux représentatives.
--------------------
Sur F4:
   sugars_100g : 0.60
   saturated-fat_100g : -0.27
   energy_100g : 0.05
   fat_100g : -0.25
   cholesterol_100g : 0.65
   fiber_100g : 0.55
   proteins_100g : -0.07
Corrélation élevée entre les variables sugars_100g, fiber_100g sur F4 .
Corrélation élevée entre les variables fat_100g , saturated-fat_100g sur F4 .
Aucune corrélation entre les variables sugars_100g, cholesterol_100g les deux flèches sont perpendiculaires.
Aucune corrélation entre les variables fat_100g , cholesterol_100g les deux flèches sont perpendiculaires.
--------------------
Sur F5:
   sugars_100g : -0.33
   saturated-fat_100g : 0.17
   energy_100g : -0.05
   fat_100g : 0.28
   cholesterol_100g : 0.0
   fiber_100g : 0.45
   proteins_100g : -0.75
Corrélation élevée entre les variables proteins_100g , sugars_100g , cholesterol_100g sur F5 .
On observe que cholesterol_100g est une variable peux représentative.
--------------------
Sur F6:
   sugars_100g: 0.13
   saturated-fat_100g : 0.75
   energy_100g: 0.05
   fat_100g: -0.50
   cholesterol_100g: 0.65
   fiber_100g: 0.0
   proteins_100g: -0.75
Corrélation faible entre les variables energy_100g , fat_100g sur F6 .
Corrélation faible entre les variables saturated-fat_100g , fiber_100g sur F6 .
Aucune corrélation entre les variables saturated-fat_100g , proteins_100g les deux flèches sont perpendiculaires.
Aucune corrélation entre les variables saturated-fat_100g , sugars_100g les deux flèches sont perpendiculaires.
Tableau data PCA
array([[ 2.243e+03,  2.857e+01,  0.000e+00, ...,  3.600e+00,  3.570e+00,
         1.200e+01],
       [ 2.540e+03,  5.714e+01,  4.820e-01, ...,  7.100e+00,  1.786e+01,
         2.000e+00],
       [ 1.933e+03,  1.827e+01,  0.000e+00, ...,  7.700e+00,  1.346e+01,
        -2.000e+00],
       ...,
       [ 0.000e+00,  0.000e+00,  0.000e+00, ...,  0.000e+00,  0.000e+00,
         0.000e+00],
       [ 0.000e+00,  0.000e+00,  0.000e+00, ...,  0.000e+00,  0.000e+00,
         0.000e+00],
       [ 2.092e+03,  0.000e+00,  0.000e+00, ...,  0.000e+00,  0.000e+00,
         6.000e+00]])
--------------------
Sur F1:
   sugars_100g : -0.05
   sodium _100g : -0.5
   energy_100g : -0.55
   fat_100g : -0.5
   fiber_100g : -0.24
   proteins_100g : -0.25
   SCORE : -0.3
Corrélation élevée entre les variables energy_100g, sodium _100g, fat_100g sur F1 .
--------------------
Sur F2:
   sugars_100g : -0.1
   sodium _100g : 0.13
   energy_100g : 0.15
   fat_100g : -0.05
   fiber_100g : 0.74
   proteins_100g : -0.3
   SCORE : -0.55
Corrélation élevée entre les variables proteins_100g, SCORE sur F2.
On observe que sugars_100g est une variable peux représentative.
--------------------
Sur F3:
   sugars_100g : 0.75
   sodium _100g : 0.25
   energy_100g : -0.05
   fat_100g : 0.15
   fiber_100g : -0.20
   proteins_100g : -0.6
   SCORE : -0.05
Corrélation entre les variables fat_100g, sodium _100g sur F3 .
On observe que energy_100g, SCORE sont des variables peux représentatives.
--------------------
Sur F4:
   sugars_100g : 0.65
   sodium _100g : -0.25
   energy_100g : 0.05
   fat_100g : -0.25
   fiber_100g : 0.3
   proteins_100g : 0.6
   SCORE : 0.05
Corrélation élevée entre les variables sugars_100g, proteins_100g sur F4 .
Corrélation élevée entre les variables fat_100g, sodium _100g sur F4 .
Aucune corrélation entre les variables sugars_100g, proteins_100g  les deux flèches sont perpendiculaires.
Aucune corrélation entre les variables fat_100g, sugars_100g les deux flèches sont perpendiculaires.
--------------------
Sur F5:
   sugars_100g : 0.04
   sodium _100g : 0.17
   energy_100g : -0.10
   fat_100g : 0.3
   fiber_100g : -0.3
   proteins_100g : 0.45
   SCORE : -0.7
Corrélation élevée entre les variables SCORE , fiber_100g  sur F5 .
On observe que sugars_100g est une variable peux représentative.
--------------------
Sur F6:
   sugars_100g : -0.04
   sodium _100g : 0.75
   energy_100g : -0.3
   fat_100g : -0.5
   fiber_100g : 0.1
   proteins_100g : 0.2
   SCORE : 0.1
Corrélation faible entre les variables energy_100g, fat_100g sur F6 .
Corrélation faible entre les variables sodium _100g, proteins_100g sur F6 .
Aucune corrélation entre les variables sodium _100g , SCORE les deux flèches sont perpendiculaires.
Aucune corrélation entre les variables energy_100g, SCORE les deux flèches sont perpendiculaires.

Représentation d'une variable sous forme de graphique¶¶

Diagramme secteurs du nutri-score :
 Nous observons environ 34% des aliments sont catégorisés en b.
 Nous observons environ 23% des aliments sont catégorisés en d.
 Nous observons environ 18% des aliments sont catégorisés en c.
 Nous observons environ 15% des aliments sont catégorisés en e.
 Nous observons environ 13% des aliments sont catégorisés en a.
Diagramme en tuyaux d orgues du nutri-score :
 Nous observons environ 34% des aliments sont catégorisés en b.
 Nous observons environ 23% des aliments sont catégorisés en d.
 Nous observons environ 18% des aliments sont catégorisés en c.
 Nous observons environ 15% des aliments sont catégorisés en e.
 Nous observons environ 13% des aliments sont catégorisés en a.
Histogramme du sucre : 
 Nous observons environ 130000 des aliments contiennent entre 0 g et 10 g de sucre.
 Nous observons environ 35000 des aliments contiennent entre 10 g et 20 g de sucre.
 Nous observons environ 20000 des aliments contiennent entre 20 g et 30 g de sucre.
 Nous observons environ 15000 des aliments contiennent entre 30 g et 40 g de sucre.
 Nous observons environ 10000 des aliments contiennent entre 40 g et 50 g de sucre.
 Nous observons environ 5000 des aliments contiennent entre 50 g et 60 g de sucre.
 Nous observons environ 2500 des aliments contiennent entre 60 g et 70 g de sucre.

Mesures de tendance centrale, de dispersion et de forme¶¶

Mesures de tendance centrale, de dispersion et de forme du nutri-score en fonction de l'énergie¶¶

--------------------
Pour la catégorie d :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie d.
  L asymétrie est à gauche presque symétrique. Les valeurs d asymétrie et d aplatissement entre -2 et +2
  sont considérées comme acceptables afin de prouver une distribution univariée normale pour l’analyse en fonction
  de l énergie.
   Boite à moustache distribution à gauche presque symétrique distribution presque égale, on en déduit que la corrélation est
  élevée entre l’énergie et la catégorie d du nutri-score.
--------------------
Pour la catégorie a :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie a. L asymétrie est à gauche. 
  Les valeurs d asymétrie et d aplatissement entre -2 et +2 sont considérées comme acceptables afin de prouver
  une distribution univariée normale pour l’analyse en fonction de l énergie.
   Boite à moustache distribution à gauche, on en déduit que la corrélation est élevée entre l énergie et la
  catégorie a du nutri-score.
--------------------
Pour la catégorie c :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie c. L asymétrie est à gauche.
  Les valeurs d asymétrie et d aplatissement entre -2 et +2 sont considérées comme acceptables afin de prouver
  une distribution univariée normale pour l’analyse en fonction de l énergie.
   Boite à moustache distribution à gauche, on en déduit que la corrélation est élevée entre l énergie et la 
  catégorie c du nutri-score. 
--------------------
Pour la catégorie b :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie b. L asymétrie est à gauche.
  Les valeurs d asymétrie et d aplatissement ne sont pas entre -2 et +2 donc ne sont considérées pas comme acceptables afin
  de prouver une distribution univariée normale pour l’analyse en fonction de l énergie. On en déduit qu il n’a pas de
  corrélation entre l énergie et la catégorie b du nutri-score.
   Boite à moustache distribution à gauche.
--------------------
Pour la catégorie e :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie e. L asymétrie est à droite.
  Les valeurs d asymétrie et d aplatissement entre -2 et +2 sont considérées comme acceptables afin de prouver une
  distribution univariée normale pour l analyse en fonction de l énergie.
   Boite à moustache distribution est à droite, on en déduit que la corrélation est élevée entre l énergie et la
  catégorie e du nutri-score.
--------------------
--------------------
d
moy:
 1450.109842235763
med:
 1460.0
var:
 321059.2090766651
std:
 566.6208689032421
skw:
 0.16412220637848443
kur:
 -0.06449174005889269
--------------------
a
moy:
 742.0515687624968
med:
 523.0
var:
 310879.0815448095
std:
 557.5653159449657
skw:
 0.5500894470605215
kur:
 -1.0990753347706887
--------------------
c
moy:
 1001.1141333473163
med:
 858.0
var:
 449238.71525559056
std:
 670.2527249147075
skw:
 0.5983548336883269
kur:
 -0.4319596061766413
--------------------
b
moy:
 215.75383935191556
med:
 0.0
var:
 165052.71852167303
std:
 406.2668070636254
skw:
 2.6487562557532653
kur:
 7.712412618101086
--------------------
e
moy:
 1844.1996093844625
med:
 1933.0
var:
 319206.20805486996
std:
 564.983369715313
skw:
 -0.6493841532254145
kur:
 1.6924772291564132
--------------------
Pour la catégorie d :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie d.
  L asymétrie est à gauche presque symétrique. Les valeurs d asymétrie et d aplatissement entre -2 et +2
  sont considérées comme acceptables afin de prouver une distribution univariée normale pour l’analyse en fonction
  de l énergie.
--------------------
Pour la catégorie a :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie a. L asymétrie est à gauche. 
  Les valeurs d asymétrie et d aplatissement entre -2 et +2 sont considérées comme acceptables afin de prouver
  une distribution univariée normale pour l’analyse en fonction de l énergie.
--------------------
Pour la catégorie c :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie c. L asymétrie est à gauche.
  Les valeurs d asymétrie et d aplatissement entre -2 et +2 sont considérées comme acceptables afin de prouver
  une distribution univariée normale pour l’analyse en fonction de l énergie.
--------------------
Pour la catégorie b :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie b. L asymétrie est à gauche.
  Les valeurs d asymétrie et d aplatissement ne sont pas entre -2 et +2 donc ne sont considérées pas comme acceptables afin
  de prouver une distribution univariée normale pour l’analyse en fonction de l énergie. On en déduit qu il n’a pas de
--------------------
Pour la catégorie e :
   Histogramme en fonction nutri-score en fonction de l énergie pour la catégorie e. L asymétrie est à droite.
  Les valeurs d asymétrie et d aplatissement entre -2 et +2 sont considérées comme acceptables afin de prouver une
  distribution univariée normale pour l analyse en fonction de l énergie.
--------------------
--------------------
d
moy:
 1450.109842235763
med:
 1460.0
var:
 321059.2090766651
std:
 566.6208689032421
skw:
 0.16412220637848443
kur:
 -0.06449174005889269
0500100015002000250030000200400600800100012001400
energy_100gcount
plotly-logomark
--------------------
a
moy:
 742.0515687624968
med:
 523.0
var:
 310879.0815448095
std:
 557.5653159449657
skw:
 0.5500894470605215
kur:
 -1.0990753347706887
050010001500200025000200400600800100012001400
energy_100gcount
plotly-logomark
--------------------
c
moy:
 1001.1141333473163
med:
 858.0
var:
 449238.71525559056
std:
 670.2527249147075
skw:
 0.5983548336883269
kur:
 -0.4319596061766413
0500100015002000250030000100200300400500600700800
energy_100gcount
plotly-logomark
--------------------
b
moy:
 215.75383935191556
med:
 0.0
var:
 165052.71852167303
std:
 406.2668070636254
skw:
 2.6487562557532653
kur:
 7.712412618101086
0500100015002000250005k10k15k20k25k30k35k40k
energy_100gcount
plotly-logomark
--------------------
e
moy:
 1844.1996093844625
med:
 1933.0
var:
 319206.20805486996
std:
 564.983369715313
skw:
 -0.6493841532254145
kur:
 1.6924772291564132
0500100015002000250030000500100015002000
energy_100gcount
plotly-logomark

Analyse bivariée : 2 variables quanti¶

Analyse bivariée : Energie en fonction du sucre¶

Nous observons qu’il y a corrélation entre énergie et sucre.

Analyse bivariée : Energie en fonction de la matière grasse¶

Nous observons qu’il y a corrélation entre énergie et matière grasse.

Analyse bivariée : Energie en fonction de fibre¶

Nous observons qu’il y a une faible corrélation entre énergie et fibre.

Analyse bivariée : Matiere grasse en fonction de graisse saturee¶

Nous observons qu’il y a corrélation entre matière grasse et graisse saturée.

Analyse bivariée : 1 variable quanti et 1 quali¶

Analyse bivariée : Energie en fonction du nutri-score¶

Nous observons que la catégorie e est la catégorie la plus élevé en énergie .
Nous constatons également  que les catégories a , d , c sont beaucoup plus dispersées et plus élevées en énergie que la catégorie b.
050010001500200025003000
aenergy_100g
plotly-logomark
050010001500200025003000
benergy_100g
plotly-logomark
0500100015002000250030003500
cenergy_100g
plotly-logomark
0500100015002000250030003500
denergy_100g
plotly-logomark
0500100015002000250030003500
eenergy_100g
plotly-logomark
Nous observons que la catégorie e est la catégorie la plus élevé en énergie .
Nous constatons également  que les catégories a , d , c sont beaucoup plus dispersées et plus élevées en énergie que la catégorie b.

Analyse bivariée : Sucre en fonction du nutri-score¶

Nous constatons que les catégories c , d , e sont beaucoup plus dispersées et plus élevées  en sucre que les catégories b et c.

Analyse bivariée : Energie en fonction du pnns groups 1¶

Nous constatons également que les catégories cereals and potatoes  ,  beverages, fruits and vegetables ,
fat ans sauces, composite foods , milk and dairy products ,fish meat eggs sont beaucoup plus 
dispersées et plus élevées en énergie que les catégories sugary snacks , salty snacks et sugary snack.
0100200300400500
unknownenergy_100g
plotly-logomark
0100200300400500
Cereals and potatoesenergy_100g
plotly-logomark
0100200300400500
Sugary snacksenergy_100g
plotly-logomark
0100200300400500
Beveragesenergy_100g
plotly-logomark
0100200300400500
Fruits and vegetablesenergy_100g
plotly-logomark
0100200300400500
Fat and saucesenergy_100g
plotly-logomark
0100200300400500
Composite foodsenergy_100g
plotly-logomark
0100200300400500
fruits-and-vegetablesenergy_100g
plotly-logomark
0100200300400500
Milk and dairy productsenergy_100g
plotly-logomark
0100200300400500
Fish Meat Eggsenergy_100g
plotly-logomark
0100200300400500
Salty snacksenergy_100g
plotly-logomark
050100150200250300350
sugary-snacksenergy_100g
plotly-logomark
320340360380400420440
cereals-and-potatoesenergy_100g
plotly-logomark
Nous constatons également que les catégories cereals and potatoes  ,  beverages, fruits and vegetables ,
fat ans sauces, composite foods , milk and dairy products ,fish meat eggs sont beaucoup plus 
dispersées et plus élevées en énergie que les catégories sugary snacks , salty snacks et sugary snack.

Analyse bivariée : Sucre en fonction du pnns groups 1¶

Nous constatons également que la catégorie  sugary snacks  est beaucoup plus
dispersée et plus élevée en sucre que les catégories cereals and potatoes,
beverages, fruits and vegetables , fat ans sauces, composite foods , 
milk and dairy products ,fish meat eggs, salty snacks et sugary snack.

ANOVA¶

ANOVA : Energie fonction du nutri-score¶

La valeur est de 0.55 donc il y a corrélation entre l’énergie et le nutri-score.
0.5506288544696435

ANOVA : Sucre fonction du nutri-score¶

La valeur est de 0.29 donc il y a une faible corrélation entre le sucre et le nutri-score.
0.2921158884978553

ANOVA : Energie fonction du pnns groups 1¶

La valeur est de 0.039 proche de zéro donc il n’y a pas de corrélation entre l’énergie et le pnns grp 1.
0.03918794767173204

ANOVA : Energie fonction du pnns groups 2¶

La valeur est de 0.068 proche de zéro donc il n’y a pas de corrélation entre l’énergie et le pnns grp 2.
0.06826123908753806

ANOVA : Sucre fonction du pnns groups 1¶

La valeur est de 0.089 proche de zéro donc il n’y a pas de corrélation entre le sucre et le pnns grp 1.
0.08964816561119977

ANOVA : Sucre fonction du pnns groups 2¶

La valeur est de 0.1 proche de zéro donc il n’y a pas de corrélation entre le sucre et le pnns grp 2.
0.10959281113177605

ANOVA : fer fonction du nutri-score¶

La valeur est de 9.458e-05 proche de zéro donc il n’y a pas de corrélation entre le fer et et le nutri-score.
9.458870769154627e-05

ANOVA : fer fonction du pnns groups 1¶

La valeur est de 0.00019 proche de zéro donc il n’y a pas de corrélation entre le fer et le pnns grp 1.
0.00019594326796834122

ANOVA : fer fonction du pnns groups 2¶

La valeur est de 0.00029 proche de zéro donc il n’y a pas de corrélation entre le fer et le pnns grp 2.
0.00029149399603358415